AI 大模型在汽车行业应用探索
The following article is from 松哥聊汽车数字化 Author 松果子聊数字化
导读 本文将为大家分享 AI 大模型在汽车行业的应用探索。
主要包括以下内容:1. AI 大模型的前世今生
2. AI 大模型在汽车营、销、服领域的探索
3. 大模型基建策略
4. 未来的展望
5. 问答环节
分享嘉宾|赵松 某知名高端电动汽车 大数据产品负责人
编辑整理|宋本生
内容校对|李瑶
出品社区|DataFun
01
AI 大模型的前世今生
人工智能早在 1956 年就已出现,后面在此基础上又出现了机器学习。在发展过程中,算法层面变得更为丰富。进一步发展,又出现了深度学习,引入了神经网络。基于深度学习,在 2021 年出现了预训练大模型。2023 年 ChatGPT 的发布,引起了人们更多的关注和更广泛深入地探索。
到底什么是大模型,大模型大在什么地方?首先,算法模型不一样,最早是 transformer 奠定了后续各类大模型的模型基础。其次是海量参数,以前的模型最多只有百万级参数,而现在的大模型常常是亿级、十亿级,甚至百亿级。第三是海量数据,预训练会用到很多的数据,比如 ChatGPT 完全是基于网上数据去进行预训练。
大模型能力很强大,但真正比较深入的应用还不是很多,整体上还处于早期的阶段,因此在行业应用中会碰到各种问题。
成本高
如果去做一个垂类的大模型应用,首先考虑部署,私有或者共有。私有部署需要基础数据标注、训练成本、算力成本、预训练团队成本。在训练完成后,上线使用还会有推理成本。
垂类应用难
现在应用较多的还是通用大模型,通过文字输入一些问题,以知识库的形式去回答,一旦聚焦到解决具体行业问题时,经常难以满足一些垂类应用。比如 AIGC 做一些营销素材的生成,如果嫁接到汽车行业里面去解决一个具体的问题,还是比较难的,中间会需要很多的调整以及预训练。
安全问题
大模型应用时,尤其是知识库,会涉及到各种各样的敏感问题,答案输出也需要考虑是否符合国家相关规范,因此大模型需要解决合规的一些问题。
隐私问题
与个人相关,包括法律法规规定的一些敏感数据,一定不能通过通用大模型去输出。
经常会有人问,大模型能够创造什么价值?其价值的核心在于效率,为各个产业降本增效起到积极的作用。
能力比较强
大模型在专业领域,包括推理能力上比人强很多。
效率更“高”
AI 大模型,以及衍生出的 AI 数字员工,能够代替一部分人工的工作,提高效率。
场景更“广”
AI 大模型的应用场景广泛,比如汽车营、销、服、研、产、供等各个环节,包括智能驾驶、智能座舱等等,各个车企都已经开始实现大模型上车,在车上真正去使用大模型。
应用更“深”
无论是行业级应用,还是具体产生直接价值的应用,大模型 + AI 将推动全链路的智能化。
02
在整个营、销、服阶段有很多环节都可以基于 AI 大模型去进行赋能。我们对这些环节逐一进行了探索和尝试,寻找可以真正落地的场景。
舆情问题智能匹配
在舆情问题发生后,需要质量部门的人员进行识别和判断,再发到研发侧。可以通过 AI 大模型去做预判,把每天舆情的问题自动转换成一些匹配,分给对应的质量部门和研发部门。
媒介投放
投放广告的时候,需要写关键词,可以通过 AI 大模型去做拓词,把拓展关键词放进去。还可以通过大模型去做标题和素材的生成,批量生成多个标题和对应的落地页素材。
AIGC 智能生成内容
在车企营销部门会做专门的品牌素材,这些素材创作出来视频以后,需要到对应社交媒体平台去做矩阵式分发。可以通过 AIGC 基于这些素材进行二次创作,再分发给销售人员通过分发获取对应的线索。在汽车行业我们聚焦在小红书训练一个垂直大模型,进行销售内容的二次创作,在新车发布上市、品牌日等场景下做一些内容发布。还有一些赋能设计师的工作,辅助海报的设计、落地页的图文设计等。
AI 销售助手
在销售线索跟进时,大模型能进行一些 AI 洞察,包含线索的一些属性、偏好以及对应的跟进话术策略。在 AI 销售助手里,将整个话术知识库挂载到大模型上进行训练。
AI 销售培训对练
AI 模拟销售和用户做真实场景的对练培训,可以检验介绍的点有没有到位,如产品功能介绍,以及对应话术有没有说,比如引导试驾。在 AI 的培训对练中,模拟过程也可能会拆成几步,如邀约跟进过程的话术,或者出单相关话术和遇到的问题。
AI 外呼摘要
在 AI 外呼时,可以通过大模型做外呼摘要的处理,其实是对语音的数据处理,包括对方言的处理,还可以在销售环节进行探索。
AI 销售培训师
可以通过数字人的形式去做培训,批量培训销售人员。讲课时的数字人在语音上可以达到逼真的效果。
客服知识库
AI 大模型可以对客户提问做综合管理,客服人员无需自行探索,使用大模型提供的答案即可给出满意的回答。
AI 售后诊断
在车联网数据平台上的智能诊断平台,有驾驶的数据、电池的数据、信号的数据等,根据对应的问题可以发现规则中没有的诊断问题。通过大模型,可以把诊断的这些规则形成一个专有知识库。
AI 取数(chatBI)
AI 取数 chatBI,替代了传统 BI,但目前还存在取数不准的问题。另外,可以通过大模型的 BI 工具去做快速的看板搭建,还可以帮助写 SQL。在未来,通过语音问答,即可获取到底层数据,改变看数据的场景和取数的交互方式。
AI 口径管理
在指标管理平台里面,各个指标口径不一致,通过大模型的工具,可以解答指标的口径,同时能告知上下游指标间的关系。助力指标管理。
AI 元数据管理
通过元数据管理平台,可以赋能上游业务系统去做表的建设,保持元数据的统一规范,同时赋能数仓的建模以及下游模型的搭建。
03
目前大模型建设中遇到的难点主要包括以下几方面:
大模型使用场景怎么设定
大模型的使用场景该如何去设定,比如前面讲到的最开始不是一上来就要做小红书这样的垂直大模型,而是要做一个 AIGC,在后续交流过程中逐渐发现场景越来越聚焦,最终聚焦到小红书素材生成的场景。
基于场景的语料怎么准备和处理
每次大模型训练都可能会涉及到场景和语料,这些内容怎么准备、怎么处理。并且在准备和处理时,不仅仅是技术人员,还有产品人员、业务人员都要共同参与。如 AI 销售培训场景中,进行了 3-4 轮的改进,耗时两个多月,每准备处理一次,都会想到一些新的处理点,在语料的处理上也不断发现了一些技巧。
大模型怎么训练(prompt 和微调)
训练包括两种,一种是直接训练和做微调,需要有比较好的平台和算法团队;第二种是轻量级,用 prompt 做提示词先把场景做好,在需求验证的情况下,对 prompt 进行调试,在场景和需求固定以后再去做微调和算力调整。
大模型的成本怎么评估:训练成本和运行成本
在调研大模型的训练成本时,我们发现各个厂家大模型的训练成本有很多是共有token 的方式,还有的是私有化部署,需要卡和平台的资源,另外就是开源,开源的就是卡的资源。在成本上需要充分考虑,项目能不能持续地进行成本投入很重要,并且除了训练时的成本,运行时成本更高。
大模型部署:共有 VS 私有
各个公司的部署方式不同,但私有大模型平台的成本通常是非常高的,至少千万级以上,启动这种项目不是小项目,需要业务价值能够承载。如果仅为探索,可以调用共有大模型 API 去进行尝试。如果有对应的算法团队,可以做一些开源模型的尝试,这样场景验证可以有比较好的冷启动。
大模型效果怎么评估
大模型的评估包括三个角度,第一个是精准度,第二个是拟人的角度,第三个是提问的关联角度。在进行大模型评估时,内容人员可能无法评估,可以借助外部进行,如供应商,评估内容不仅包括技术指标,还有业务指标。
是否安全合规
安全合规方面,有的同学可能会使用 OpenAI 等工具,这在合规上是不允许的,需要尽量避免。在大厂的模型里面,都具备一些针对安全合规的内容进行审核和过滤的能力。
业务价值怎么衡量
在业务价值的衡量上有个策略是离钱近容错高,也就是离业务很近,如销售业务容错率比较高,不会因为回答不精准导致很大的问题,但如 BI,回答错了影响则会非常严重。另一方面是覆盖范围,覆盖范围广,提效的影响就更大。
目前建设大模型的主要痛点包括:技术变化快、人才短缺、初始投入大、缺少成熟的工具链、产业链分工尚未成熟、场景落地缺乏经验,以及应用效果难评估等。
构建 AI 大模型的基础设施,可以采用公有云实例的方式,如果有专有云实例的话,可以嫁接一些自己的向量数据库。如果数据不敏感,就用纯公有云的方式。另外就是私有部署,私有化的大模型是最贵的,基于通用的行业大模型,训练公司自己的垂直大模型,或者进一步训练各个业务场景的大模型,如营销的、销售的、售后的大模型等等。
04
人与 AI 协作
在 2023-2024 年,这个时候更多的是人和 AI 的协作,现在 AI 已经应用于内容生成、文字处理、图片设计等场景中。
部分自动化
这一阶段自动化可能会出错,在一些容错高的地方可以先行应用,比如广告的场景、培训的场景等等。
全自动化
在全自动化阶段,整个训练决策、执行的动作,以及整个 agent 都将实现自动化。
05
Q1:座舱大模型里面现有哪些应用场景?
A1:本次分享内容不涉及座舱,其实在座舱方面有很多应用场景,比如车机中的图片、壁纸,以及语音助手等等。
Q2:现在有产生革命性突破,还是在初期实验当中?
A2:目前仍处于初期实验阶段,虽然在技术上可能有所突破,但在产业应用当中还在寻找能够规模化落地的场景。
Q3:如果去微调 chatBI 的能力有没有可行性?
A3:目前无法做到非常精准,在多个维度去取数问指标还不够精准,单个维度可能是可以的。如果单单去微调是比较难的,因为取数背后的逻辑非常复杂,还需要操作底层的数据。
Q4:是否可以让大模型做一些指标归因?
A4:可以的,在整个指标归因过程中,平时总结的一些内容可以沉淀为知识库。
分享嘉宾
INTRODUCTION
赵松
某知名高端电动汽车
大数据产品负责人
资深车企数字化专家,现任某知名高端电动汽车大数据产品负责人,曾在阿里影业、中国移动苏州研发中心、数梦工场汽车事业部等公司担任大数据产品负责人;主导实施上汽大众营销数据中台、奇瑞营销数字化平台和 PSA 集团 CDP 等项目,在车企数据中台、全域 BI 和 CDP 平台建设方面有丰富的实践经验。
往期推荐
高性能 LLM 推理框架的设计与实现
大模型微调方案设计和能力整合
金融级实时数仓建设实践
理想汽车基于Flink on K8s的数据集成实践
大数据安全治理与防范——网址反欺诈实战
货拉拉大数据新一代基础架构实践与思考
如何实现 DataOps 开发、运营、治理一体化
蚂蚁 TuGraph-DB 数据库查询引擎技术
一文看懂什么是强化学习?(基本概念+应用场景+主流算法+案例)
点个在看你最好看